بازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه

پایان نامه
چکیده

عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می دهند. در این پایان نامه، ما از یک شیوه ی رایج جبران سازی دادگان که در آن عناصر مفقود، برای بدست آوردن اسپکتروگرام کامل بازسازی می شوند استفاده خواهیم کرد که از آن با عنوان جبران سازی مبتنی بر دادگان مفقود یاد می شود. در این شیوه برای تخمین مولفه های مفقود اسپکتروگرام، از همبستگی بین مولفه ها، استفاده می شود. در ادامه یک شیوه جدید مطرح می کنیم که الگوی ویژگی های مفقود را با دیدگاهی نو به عنوان مسئله جبران سازی دادگان مطرح می کند. در این روش از شبکه عصبی دوسویه بهره گرفته می شود که به صورت هم زمان بر روی دادگان تمیز و نویزی جهت بازشناسی آواهای گفتار آموزش داده می شود تا با انجام یک سری پردازش های غیر خطی و دوطرفه (جلوسو و برگشتی) بتوان از دانش نهفته در مدل، ناشی از یاد گرفتن گفتار تمیز و نویزی بهره گرفته و بردارهای بازنمایی گفتار را در جهت افزایش صحت بازشناسی آواهای گفتار بهبود بخشید. در هر دو روش ویژگی های کپستروم بدست آمده از اسپکتروگرام بازسازی شده، برای بازشناسی مورد استفاده قرار می گیرند بدون اینکه سیستم بازشناسی نیازی به اصلاح داشته باشد. روش مبتنی بر دادگان مفقود، از دو بخش شناسایی مولفه های مفقود و اصلاح آن ها تشکیل شده است. روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، از این قاعده مستثنی بوده چرا که نیازی به شناسایی مولفه های مفقود ندارد و بازسازی را در جهت هرچه شبیه تر شدن تمامی مولفه ها (خواه معتبر باشد خواه نامعتبر) به مولفه های گفتار تمیز صورت می دهد و این یک برتری بسیار چشمگیری است که در این تحقیق حاصل شده است؛ چرا که در عمل، بحث شناسایی مولفه های مفقود، که یک بحث چالش برانگیز در تمامی روش های بکارگرفته شده در جهت بازشناسی مقاوم گفتار است و ارتباط مستقیمی با میزان صحت بازشناسی دارد را حذف می کند. ارزیابی هایی که در این تحقیق بر روی دو روش ذکر شده صورت گرفت، بهبود 2/4 درصدی بر روی صحت بازشناسی بدست آمده برای گفتار نویزی تخریب شده توسط نویز با نسبت سیگنال به نویز 0 db با استفاده از روش اصلاح ویژگی مبتنی بر دادگان مفقود، حاصل کرد و بهمان نحو بهبود 5/8 درصدی را برای همان نرخ نویز تخریبی با استفاده از روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، به نمایش گذاشت. در آخر کار با ترکیب دو روش یاد شده، توانستیم پیشرفت چشمگیری در حدود 10 درصد در روند بازشناسی سیگنال های تخریب شده بدست آوریم.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

متن کامل

بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...

متن کامل

بازشناسی گفتار نویزی با اصلاح روش خوشه بندی در دادگان مفقود

بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مب...

15 صفحه اول

شبکه عصبی پیچشی با پنجره‌های قابل تطبیق برای بازشناسی گفتار

Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...

متن کامل

بازشناسی مقاوم چهره با استفاده از شبکه عصبی

ویژگیهای استخراج شده از تصاویر چهره انسان، تحت تأثیر تنوعات مختلف نظیر تغییرات در نورپردازی، چرخش سر، داشتن حالتهای احساسی و سایر موارد تغییر می کند. به دلیل تأثیر این تنوعات غیرخطی در الگوهای ورودی، کارآیی سامانه های خودکار بازشناسی چهره در شرایط کنترل نشده به طور چشم گیری کاهش می یابد. برای افزایش کارآیی سامانه های بازشناسی چهره نسبت به این تنوعات، باید ویژگیهای مشابه برای تصاویر هر فرد استخر...

15 صفحه اول

ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازش...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023